1 - Dados organizados

CE II: Organização, visualização e comunicação de dados

Carolina Musso

DEPAT/IPE-DF

Luiz Oliveira
Rafael de Acypreste

Estrutura do curso

  1. Dados organizados - Oficina 1

  2. Visualização de dados - Oficinas 2, 3 e 4

  3. Automatização de relatórios de pesquisa (Github) - Oficinas 5, 6, e 7

  4. Amostragem aplicada à linguagem R - Oficinas 8 e 9

Oficina 1 - Dados organizados

  1. Contextualização

  2. O que são dados organizados?

  3. As três regras dos dados organizados

  4. Exemplos de dados (des)organizados

  5. Exercícios

  6. Considerações finais

Contextualização

  • Em ciência de dados, mais da metade do tempo de trabalho é gasto com a limpeza e preparação dos dados;

Dados desorganizados

“Famílias felizes são todas iguais; cada família infeliz é infeliz à sua própria maneira.”
— Leon Tolstoy.

“Conjuntos de dados organizados são todos iguais, mas cada conjunto de dados desorganizado é desorganizado à sua própria maneira.”
— Hadley Wickham

Dados desorganizados

  • Diferença de dados desestruturados
    • Texto livre
    • Imagens, áudio e vídeo
  • Dados organizados: Dados tabulares em um formato ideal para leitura da máquina.

O que são dados organizados?

Tabela 1

# A tibble: 6 × 4
  country      year  cases population
  <chr>       <dbl>  <dbl>      <dbl>
1 Afghanistan  1999    745   19987071
2 Afghanistan  2000   2666   20595360
3 Brazil       1999  37737  172006362
4 Brazil       2000  80488  174504898
5 China        1999 212258 1272915272
6 China        2000 213766 1280428583

Tabela 2

# A tibble: 12 × 4
   country      year type            count
   <chr>       <dbl> <chr>           <dbl>
 1 Afghanistan  1999 cases             745
 2 Afghanistan  1999 population   19987071
 3 Afghanistan  2000 cases            2666
 4 Afghanistan  2000 population   20595360
 5 Brazil       1999 cases           37737
 6 Brazil       1999 population  172006362
 7 Brazil       2000 cases           80488
 8 Brazil       2000 population  174504898
 9 China        1999 cases          212258
10 China        1999 population 1272915272
11 China        2000 cases          213766
12 China        2000 population 1280428583

Tabela 3

# A tibble: 6 × 3
  country      year rate             
  <chr>       <dbl> <chr>            
1 Afghanistan  1999 745/19987071     
2 Afghanistan  2000 2666/20595360    
3 Brazil       1999 37737/172006362  
4 Brazil       2000 80488/174504898  
5 China        1999 212258/1272915272
6 China        2000 213766/1280428583

O que são dados organizados?

  • Três regras dos dados organizados:
    1. Cada variável forma uma coluna
    2. Cada observação forma uma linha
    3. Cada tipo de unidade observacional forma uma tabela

O que (pode ser) bom para humano X bom para máquina

Dados organizados

table1 |>
  mutate(rate = cases / population * 10000)
# A tibble: 6 × 5
  country      year  cases population  rate
  <chr>       <dbl>  <dbl>      <dbl> <dbl>
1 Afghanistan  1999    745   19987071 0.373
2 Afghanistan  2000   2666   20595360 1.29 
3 Brazil       1999  37737  172006362 2.19 
4 Brazil       2000  80488  174504898 4.61 
5 China        1999 212258 1272915272 1.67 
6 China        2000 213766 1280428583 1.67 
table1 |> 
  group_by(year) |> 
  summarize(total_cases = sum(cases))
# A tibble: 2 × 2
   year total_cases
  <dbl>       <dbl>
1  1999      250740
2  2000      296920
ggplot(table1, aes(x = year, y = cases)) +
  geom_line(aes(group = country), color = "grey50") +
  geom_point(aes(color = country, shape = country)) +
  scale_x_continuous(breaks = c(1999, 2000))

tidyverse

Outros problemas

# A tibble: 28 × 7
   `Dados compilados` ...2     ...3     ...4     ...5     ...6     ...7    
   <lgl>              <chr>    <chr>    <chr>    <chr>    <chr>    <chr>   
 1 NA                 <NA>     <NA>     <NA>     <NA>     <NA>     <NA>    
 2 NA                 <NA>     <NA>     <NA>     <NA>     <NA>     <NA>    
 3 NA                 Coluna 1 Coluna 2 Coluna 3 Coluna 4 Coluna 5 Coluna 6
 4 NA                 5        5        5        5        5        5       
 5 NA                 4        4        4        4        4        4       
 6 NA                 5        5        5        5        5        5       
 7 NA                 6        6        6        6        6        6       
 8 NA                 6        6        6        6        6        6       
 9 NA                 6.4      6.4      6.4      6.4      6.4      6.4     
10 NA                 6.8      6.8      6.8      6.8      6.8      6.8     
# ℹ 18 more rows

Outros problemas

# A tibble: 25 × 5
   ...1  Sexo  ...3  Faixa ...5 
   <chr> <chr> <chr> <chr> <chr>
 1 Dia   F     M     <30   >30  
 2 44479 4     7     4     4    
 3 44480 5     8     5     5    
 4 44481 3     6     6     6    
 5 44482 1     4     6     6    
 6 44483 0     3     2     5    
 7 44484 1     4     4     7    
 8 44485 2     5     6     9    
 9 44486 0     3     2     5    
10 44487 1     4     4     7    
# ℹ 15 more rows

Outros problemas

# A tibble: 19 × 5
   Dia        PaÃ.s PopulaÃ.Ã.o  Taxa.de.natalidade  kmÂ.
   <chr>      <int> <chr>                     <int> <int>
 1 10/10/2021     4 7                             4     4
 2 11/10/2021     5 8                             5     5
 3 12/10/2021     3 6                             6     6
 4 13/10/2021     1 4                             6     6
 5 14/10/2021     0 3                             2     5
 6 15/10/2021     1 4                             4     7
 7 16/10/2021     2 Não se sabe                  3     2
 8 17/10/2021     0 3                             2     5
 9 18/10/2021     1 4                             4     7
10 19/10/2021     4 7                            10    13
11 20/10/2021     1 4                             4     7
12 21/10/2021     1 4                             4     7
13 22/10/2021     0 3                             2     5
14 23/10/2021     6 9                            14    17
15 24/10/2021     1 4                             4     7
16 25/10/2021     1 4                             4     7
17 26/10/2021     9 12                           20    23
18 27/10/2021     1 4                             4     7
19 28/10/2021     1 4                             4     7

Outros problemas

# A tibble: 10 × 2
# Groups:   SEXO [10]
   SEXO         n
   <chr>    <int>
 1 -            1
 2 F            4
 3 F*           1
 4 M            4
 5 f            2
 6 fem          1
 7 feminino     1
 8 m            2
 9 vazio        1
10 <NA>         2

Exercício (?)

O que você teria que fazer para transformar os dados desorganizados abaixo em dados organizados?

table2
# A tibble: 12 × 4
   country      year type            count
   <chr>       <dbl> <chr>           <dbl>
 1 Afghanistan  1999 cases             745
 2 Afghanistan  1999 population   19987071
 3 Afghanistan  2000 cases            2666
 4 Afghanistan  2000 population   20595360
 5 Brazil       1999 cases           37737
 6 Brazil       1999 population  172006362
 7 Brazil       2000 cases           80488
 8 Brazil       2000 population  174504898
 9 China        1999 cases          212258
10 China        1999 population 1272915272
11 China        2000 cases          213766
12 China        2000 population 1280428583

Dados longo

Considerações finais

  • Dados organizados são essenciais para análises e visualizações eficientes e reprodutíveis

  • Dados organizados para humanos nem sempre são organizados para máquinas

  • De modo geral tidy data

    • Uma variável por coluna
    • Uma observação por linha
    • Um valor por célula